OneHot编码是什么 和 数字编码
onehot编码(独热编码)
大部分算法不能直接处理字符串,所以↓,要表示的信息👇
id | 颜色 |
---|---|
1 | red |
2 | blue |
3 | green |
4 | blue |
Onehot编码: |
red = [ 1 , 0 , 0 ]
blue = [ 0 , 1 , 0 ]
green = [ 0 , 0 , 1 ]
编码后算法能识别的矩阵:
[1,0,0]
[0,1,0]
[0,0,1]
[0,1,0]
如果元素非常多,那么这个编码的数组会非常大,很占内存red = [1,0,0]
所以还有一种编码方式叫数字编码,给每个元素标记一个数字